梁军｜因果关系计量方法的内在逻辑与实践改进

梁军比较中的政治研究

2024-11-14

编者按

近些年来，因果关系计量成为计量经济学理论研究和实证研究的热点。与传统的相关关系计量相比，因果关系计量希望解决的问题是什么？在解决这些问题的过程中经济学家们想到了哪些方法？实践中又可以从哪些方面对因果关系计量方法及其效果进一步改进呢？本文围绕上述问题展开了一系列理论探讨。本文指出，因果关系计量的核心是构建反事实，通过巧妙设计获得受干预个体在不受干预下取值的估值。因果关系计量方法主要有三种：倾向得分匹配法、双重差分法和断点回归法，它们都是基于实现对反事实的构建逻辑探索得出的因果关系计量。

因果关系计量方法的内在逻辑与实践改进

作者：

梁军，曲阜师范大学经济学院

引文格式（GB-2015）：

梁军. 因果关系计量方法的内在逻辑与实践改进 [J]. 社会研究方法评论, 2023, 3 (01): 175-194.

内容提要

不同于相关关系计量，因果关系计量不可避免地会遇到反事实这一难题。因果关系计量的核心是构建反事实，通过巧妙设计获得受干预个体在不受干预下取值的估值。倾向得分匹配法、双重差分法和断点回归法正是基于实现对反事实的构建逻辑探索得出的三种主要的因果关系计量方法。虽然都是构建反事实，三种计量方法的思路设计和具体方法存在明显差异。为了更好地进行因果关系计量，实践中可从充分使用大数据和机器学习技术、加强定量研究与定性研究的结合等方面加以改进。

关键词

因果关系；反事实；倾向得分匹配；双重差分；断点回归

2021年10月，诺贝尔经济学奖被授予给了加州大学伯克利分校的大卫·卡德（David Card）、剑桥麻省理工学院的乔舒亚·安格里斯特（Joshua Angrist）和斯坦福大学的圭多·伊本斯（GuidoIm⁃bens）三位教授。三位学者征服诺贝尔奖评委的主要原因，在于他们在因果关系计量方法论方面所做出的突出贡献。近些年来，因果关系计量成为计量经济学理论研究和实证研究的热点。与传统的相关关系计量相比，因果关系计量遇到的关键难题是什么？计量经济学家探索发展出的主要计量方法是如何解决这一难题的？实践中又可以从哪些方面对因果关系计量方法及其效果进一步改进呢？本文拟围绕上述问题展开理论探讨。

一、因果关系计量与反事实问题

计量经济学研究变量之间的关系，不仅要研究其相关关系（correlation），更要推断其因果关系（causality）。这是因为，因果关系是所有科学研究的基本目标（谢宇，2010），多数实证分析的目的是要确定变量之间的因果关系，而非仅仅是相关关系（陈强，2014）。相关关系研究不同变量是否具有统计意义上的相关性及具体相关程度，主要通过不同个体的变量的观测数据，对变量间的相关性进行统计推断，通常通过计算变量的协方差或相关系数，或进行线性或非线性回归，计量出变量是否具有统计意义上的相关性及相关程度的高低。不同于相关关系研究，因果关系研究的是同一总体中的不同变量是否存在谁导致谁的关系，要识别出原因变量和结果变量，并计量得到原因变量对结果变量的具体影响程度。

从逻辑上看，因果关系计量似乎并不困难，首先可以依时间先后把相关变量分为原因变量（X）与结果变量（Y），通常假设原因变量为只有两个取值的虚拟变量D（D=1表示干预，D=0表示不干预），然后观测得到结果变量的两个响应结果：个体受到干预时的结果变量值（Y1）与个体没有受到干预时的结果变量值（Y0），最后计算Y1与Y0的差异并检验该差异是否统计显著，即可推断出X与Y是否具有因果关系并计量得到因果效应的大小。然而，因果关系计量实践中会遇到一个无法避免的基本难题：反事实（counterfactual）问题的存在（Neyman，1923；Rubin，1974）。反事实是受到干预的个体在不受干预情况下或者没有受到干预的个体在受干预情况下的取值，反事实问题的存在意味着研究者不可能在同一个体上同时观测到Y1与Y0。因为逻辑上说，对于同一个体，要么只能得到其受到干预下的结果变量值Y1，要么只能得到其没有受到干预下的结果变量值Y0，而不可能同时得到Y1与Y0两个值。反事实问题的存在意味着研究者难以在个体层面得到X对Y的因果效应。以上大学能否导致收入增加为例进一步说明因果关系计量与反事实问题。现实中，能够被观测到的上大学的收入增加效应通常是用上过大学的人的平均收入减去没有上过大学的人的平均收入，公式表述为：

其中，AOE（average observed effect）表示平均观测效应，Y表示个体收入，其下标1和i分别表示该个体上过大学和第i个个体，Di=1表示该个体上过大学，Di=0表示该个体没上过大学，相应地，E(Y1i|Di=1)表示上过大学的观测个体的平均收入，E(Y0i|Di=0)表示没上过大学的观测个体的平均收入。

公式（1）计量得到的是否就是上大学对收入增加的真实因果效应？事实并非如此。很有可能上过大学的人本身获取收入的能力比未上过大学的人就强，公式（1）实际上无法区分两个群体的平均收入差异到底是源自上大学还是源自个体的差异。上大学对收入增加的真实因果效应应该是在除上大学之外，在观测个体的其他因素完全相同的条件下进行比较而得到。进一步说，上大学对收入增加的真实因果效应应该是上过大学的个体（Di=1）的平均收入与这些个体如果没上大学的平均收入之差，公式表述为：

其中，ATT(average treatment effect on the treated）表示参与者平均处理效应，其含义是上过大学的人的平均收入与同样这一群人如果没上大学的平均收入之差。遗憾的是，真实世界中，同一个人不可能既上大学又没上大学，永远无法同时被观测到的上大学的人在没上大学情况下的收入就是上大学的人的收入的反事实。反事实问题的存在意味着无法直接利用公式（2）计量得到上大学对收入增加的真实因果效应。

公式（1）的平均观测效应不同于公式（2）的真实因果效应，通过对公式（1）重新构造得到公式（3），能够进一步厘清平均观测效应和真实因果效应间的差异与联系。

公式（3）实际上是由公式（1）减去反事实再加上反事实后得到的，虽然结果仍是平均观测效应，但不难看出，公式（3）的前半部分E(Y1i|Di=1)-E(Y0i|Di=1)正是上大学对收入增加的真实因果效应ATT，后半部分E(Y0i|Di=1)-E(Y0i|Di=0)被称为选择偏差（selec⁃tionbias），其表面含义是上大学和没上大学的人如果都没上大学情况下的平均收入之差，真实含义则是指在E(Y0i|Di=1)≠E(Y0i|Di=0)的情况下，假设E(Y0i|Di=1)=E(Y0i|Di=0)会导致的计量偏误，即把观测到的因果效应当成真实因果效应的偏差。通常上大学的人即使在没上大学情况下的收入大概率也比没上大学的人高，这是因为上大学的人本来就有较强能力，因为能力强，即使不上大学其收入往往也比没上大学的人高，因此公式（3）中的选择偏差通常不为0。进而可知，观测到的因果效应实际上等于真实因果效应加上一个不等于0的选择偏差，直接比较上大学的人与没上大学的人的平均收入差异往往高估了上大学对收入增加的真实因果效应。

二、因果关系计量方法的探索

反事实的存在意味着真实因果效应推断存在难题，但学者们并没有放弃通过计量分析变量之间真实因果关系的尝试。从上述分析可知，因果效应推断困难的根源在于个体存在差异——如没上大学的个体和上大学的个体存在差异——反事实问题的存在从而致使前者无法直接作为后者的反事实，由此也决定了没有考虑并处理反事实问题的传统计量方法获得的统计推断结果仅仅是观测的因果效应，而非真实因果效应。

要进行因果关系计量，必须有效地处理反事实问题，这意味着计量经济学进行因果关系研究，不管采用什么样的研究方法设计，关键都要构建出合理的反事实。当前反事实构建较为通常的做法是确定处理组（treatmentgroup）后找到适合的控制组（controlgroup），将控制组的取值作为处理组受干预取值的反事实，进而计量得到变量间的因果效应。基于如何实现反事实的构建，计量经济学家探索发展出了倾向得分匹配法、双重差分法、断点回归法等几种主要的计量方法，剖析这些计量方法有助于更好地厘清因果关系计量的内在逻辑。

（一）倾向得分匹配法

倾向得分匹配法(propensity score matching, PSM)是由罗森鲍姆和鲁宾（Rosenbaum & Rubin，1983）基于匹配估计的思想提出的。匹配估计的基本思路是，对于处理组中的个体i，匹配以控制组中的个体j，进行匹配的原则是个体i和个体j的可测变量（如X）的值相等或相近，将个体j的取值（Yj）作为与之匹配的个体i受干预后取值（Y1i）的反事实（Y0i），进而计量得到因果效应。

当可测变量（X）为单一变量时，匹配法计量因果效应的公式为：

如果可测变量X不是单一变量而是K维向量，则很难直接根据X找到控制组中的个体与处理组中的个体进行匹配。为了解决高维匹配问题，罗森鲍姆和鲁宾提出以倾向得分——向量X给定情况下个体进入处理组的条件概率p(X)——进行匹配，②将匹配得到的控制组个体j的取值作为匹配的处理组个体i受干预后取值的反事实。PSM计量因果效应的公式为：

PSM构建的反事实是根据可测变量得到的倾向得分进行匹配后的控制组相应个体因变量的均值，这一反事实适当与否的关键取决于条件独立假定（conditional in dependence assumption）是否满足。条件独立假定要求在给定X值的情况下，潜在结果（Y0i,Y1i）独立于Di。条件独立假定满足前提下，PSM通过平衡可观测数据中处理组和控制组间的相关变量分布，大大减少了估计平均处理效应时的选择偏差，进而计量得到更为真实的因果效应。

PSM提出后逐渐被经济学、管理学、教育学、社会学、医学等各领域的学者使用。主题词检索发现，2010—2019年采用这一方法的中文文献（中国知网）有1843篇，英文文献（WebofScience）有9766篇（王筱纶等，2020）。学者都阳和Park（2007）对城市低保政策实施对受保家庭行为的影响研究，周亚虹等（2010）对农村家庭职业教育收入回报的研究，黄玲文和姚洋（2007）、胡吉祥等（2011）、秦雪征等（2012）对企业改制与企业上市政策效果的评估，程令国和张晔（2012）、白重恩等（2012）、岳爱等（2013）对新农合政策实施效果的评估，李云森（2013）对父母外出对留守儿童学习影响的研究，贾仓仓和何微微（2020）对子女照料对老年人健康影响的研究等，都应用了PSM方法。

（二）双重差分法

双重差分法（difference-in-difference method，DID）是阿申费尔特（Ashenfelter，1978）提出的因果关系计量方法，该方法常被用来评估某一行为或某一政策实施后的效果。我们以高铁开通对居民收入的影响为例，分析DID如何构建反事实来计量因果关系（图1）。

图1中的各变量有两个下标，第一个代表地区（T为高铁开通地区，C为高铁未开通地区），第二个代表时点（0为高铁开通前，1为高铁开通后）。研究者能够获得高铁开通地区（处理组）的居民在高铁开通前的平均收入E(YT0)和开通后的平均收入E(YT1)信息，但两者之差E(YT1)-E(YT0)并非高铁开通对居民收入的真实因果效应，182方法评论因果关系计量方法的内在逻辑与实践改进因为E(YT0)并非高铁开通后T地区假设不开通高铁下的居民平均收入这一反事实。①DID采取的措施是找到不开通高铁的C地区（控制组），获得其居民在T地区高铁开通前后的平均收入E(YC0)和E(YC1)，将E(YT0)+[E(YC1)-E(YC0)]（图1中的E(YT1)）作为T地区高铁开通后居民平均收入的反事实。高铁开通对居民收入的因果效应就是高铁开通前后高铁开通地区居民平均收入的变化与未开通高铁地区居民平均收入的变化之差。DID计量因果效应的公式为：

DID构建的反事实是控制组因变量的平均变化加上处理组受干预前因变量的均值。这一反事实适当与否的关键是处理组与控制组应具有共同趋势（common trends），即处理组与控制组在行为或政策实施之前，它们的结果效应要具有相同的变化趋势，直观来说就是如图1中的两条虚线必须平行，只有这样，才能保证采用DID估计能够得到更为真实的因果效应。

如同PSM，基于DID的研究成果在经济学、管理学、教育学等各社会科学领域大量涌现。仅以双重差分法为关键词进行检索后发现，2000—2021年中国知网收录的中文期刊文献达到645篇。周黎安和陈烨（2005）对农村税费改革政策效果的检验，王孝松等（2010）对出口退税政策效果的评估，毛捷等（2011）对财政转移支付对减少民族地区经济发展差距的分析，田存志等（2014）对紧缩性货币政策对不同类别企业家投资异质性影响效果的研究，罗长远和曾帅（2020）对走出去对企业融资约束缓解的探讨，林毅夫等（2020）对地方政府消费券发放经济效应的分析等，都应用了DID因果效应计量方法。

（三）断点回归法

断点回归法（regression discontinuity design，RDD）是由西斯尔维特和坎贝尔（Thistlewaite & Campbell，1960）首次提出，经过哈恩等人（Hahn et al.，2001）的努力而得到发展的一种计量方法。该方法在教育学、经济学、医药学等研究领域得到了广泛应用，成为在因果分析和政策评估方面一种非常重要的实证方法。

不同于DID，RDD用某可测连续变量X的取值（Xi）是否超过某一断点（cutoff point）来区分个体应归入处理组还是控制组。公式表示为：

当Xi≥cutoff point，相应个体归入处理组，当Xi<cutoff point，相应个体归入控制组。如果因变量在处理组和控制组内连续但在断点左右出现跳跃，则将其归为基于断点的介入所导致的因果效应。

仍是以上大学对收入增加的影响为例。假设某年某省大学录取分数线(D)为480分，总会有一些考生因为毫厘之差（如1分）没能被大学录取，这意味着D(D(Xi))在Xi=480处存在断点。对于高考成绩在480分左右小邻域(480-ε,480+ε)的考生，通常认为他们在各方面没有系统差异，高考成绩的细微差别可能只是随机因素导致或者说运气使然。换句话说，那些考480+ε分踩线考上的考生和考480-ε分因毫厘之差而落榜的考生在能力上可能没什么差别，从而后者就无限接近上大学的前者如果没去读大学的情况。因此，上大学对收入增加的因果效应就可以用高考480+ε分从而上大学的人和480-ε分从而未能上大学的人的平均收入的差异来计量。

图2展示了RDD的研究设计。图中的横坐标表示考生分数，纵坐标表示收入，480分（虚竖线表示）是决定能否上大学的分水岭，480+ε分的考生归入处理组（T），480-ε分的考生则归入控制组（C）。不同于DID将E(YT0)+[E(YC1)-E(YC0)]作为反事实，RDD把考480-ε分没上大学的人的平均收入作为考480+ε分上大学的人的平均收入的反事实。如此构建反事实的理由如前文所述，考480+ε分的人和考480-ε分的人的能力没有系统性差别，进而可用前者的平均收入减去后者的平均收入得到上大学对收入增加的因果效应。直观上看，上大学对收入增加的影响即为图中X=480分处的条件期望E(Yi|Xi)向上跳跃的距离，其公式可表示为：

RDD计量方法同样在国内社会科学研究特别是经济学研究中得到了大量应用。张川川等（2014）对新型农村社会养老保险政策效果的评估，马光荣等（2016）对一般性转移支付和专项转移支付对地方经济增长影响的估计，李卫兵和张凯霞（2019）对空气污染对企业生产率影响的考察，李连友等（2022）对最低工资对社保基金收入效应的研究，都使用了该方法。

综合上述三种计量方法不难看出，因果关系计量的关键是要构建合理的反事实。PSM构建的反事实是根据可测变量或由可测变量估计得到的倾向得分匹配后的控制组相应个体因变量的均值，DID构建的反事实是控制组干预前后因变量的平均变化加上干预前处理组因变量的均值，RDD则是直接以断点附近控制组因变量的均值直接作为断点附近处理组受干预后因变量均值的反事实。三种计量方法构建反事实的思路设计和具体方法虽有明显不同，但在构建受干预个体在不受干预情况下取值这一反事实的内在逻辑上是一致的。

三、因果关系计量实践的改进思路

虽然上述方法构建的反事实各有特点且均构思巧妙，但因果关系计量仍面临着挑战。PSM构建的反事实适当与否的关键取决于个体对Di的选择完全取决于X的值或倾向得分P(X)的条件独立假定是否满足，而这是一个现实中不易满足的强假定。DID的有效性依赖于处理组与控制组在时间上具有平行趋势，这一假设在现实中也较难满足。RDD要求进入处理组和控制组的断点小邻域的个体无差别的假设也被认为存在勉强之处，因为细微的差别毕竟也是差别。因此，上述因果关系计量方法构建的反事实看似解决了因果关系计量的关键难题，但问题实际依然存在，只要不是真正的随机实验，构建更为合理的反事实的问题永不会消失。

从更好地实现因果关系计量的目标出发，实践中可从以下几方面进行改进。

一是充分利用大数据（big data）。变量之间关系的计量，包括因果关系计量的有效性，在很大程度上受到样本数量的限制。众所周知，样本数量越大越能得到变量间关系的一致性推断，然而，受制于数据的可得性与搜集成本，传统的计量方法不得不采用有限样本进行统计推断的“曲线研究方法”。随着云计算等数据搜集和处理技术的发展，海量的大数据已成为现实。作为一种全新的资料，大数据以其超越传统调查数据的样本数量和时间跨度，为社会科学各领域的实证研究提供了更大空间。大数据的运用在很大程度上能使变量之间关系的计量摆脱以有限样本进行统计推断的“曲线研究方法”的局限，使计量在更可能接近总体的情况下进行。实践中，因果关系计量也应该充分利用大数据。使用的数据越大，因果关系计量越能得到一致性的估计结果，可选择的数据越多，也意味着因果关系计量越有可能找到更为理想的反事实，从而增强因果关系计量的有效性。

国内外研究文献中，使用大数据与因果关系推断曾被视为相互对立的趋势，因为大数据通常被认为更适合相关性推断（correlation inference）（舍恩伯格，2013；Grimmer，2015），但现在的普遍共识是，大数据的使用不仅有助于因果推断（Monroe et al.，2015），并能因其对因果关系的重构使因果推断焕发出新的生命力（程开明等，2019）。邦德等（Bond et al.，2012）使用6100万Facebook用户个体数据研究了政治动员信息发放对促进选民投票的作用，安索雷布哈尔等（Ansolabehere et al.，2012）使用180多万个体数据探讨了年龄对美国选民登记投票行为的影响，赫什（Hersh，2013）使用近100万个体数据研究了恐怖袭击对人的政治行为的影响，此外，切蒂等（Chetty et al.，2014）对传统VA（value-added）模型在评估教师对学生学业成绩因果影响方面的偏差的验证，陶布曼（Taubman，2014）对医疗补助扩展计划对急诊使用量的因果效应的研究，也充分使用了大数据。

二是充分利用机器学习（machine learning）技术。机器学习通常是指从数据中识别规律并以此完成预测等任务的算法（王芳等，2020）。随着大数据和计算机技术的发展，机器学习技术在经济学等社会科学领域得到了快速应用。运用机器学习技术，学者们不仅可以获得更多之前难以获得的数据，进而能对一些更具挑战性的假设进行检验，而且相对于传统的计量方法，其能够对变量间之间的关系做出更为精确的计量。如上所述，计量经济学家们探索出来的因果关系计量方法，不管采用何种研究设计，其主要目的都是借助控制组构建出处理组的反事实。虽然已有的计量方法构建的反事实各有特点，但借助控制组构建出的处理组的反事实与可能的处理组的反事实是否足够相同或相似仍然值得怀疑，这就使得在获取数据和预测方面更具优势的机器学习技术有了用武之地。具体来说，与其寻找控制组的某种相应取值作为反事实，不如充分利用机器学习技术，直接利用控制组中的样本构建某种函数，使该函数的取值与处理组足够相似，从而可将该函数在受干预后的预测值作为反事实。与DID等相比，机器学习技术改进了反事实的估计，很大程度上会提高因果关系计量在潜在结果预估方面的成效。

近年来，诸多国内外学者开始关注机器学习在因果推断领域的研究和应用（Athey&Imbens，2015；Chernozhukov et al.，2018；刘丽艳、朱成全，2020；Knittel&Stolper，2021；钱浩祺等，2021）。阿西和因本斯（Athey&Imbens，2016）通过开发因果关系树（causal trees）方法对子群体间不同处理效应进行的估计，贝洛尼等（Belloni et al.，2017）对因果推断中的遗漏变量偏差的处理，瓦格和阿西（Wager&Athey，2018）将因果关系树的方法拓展到随机森林（random forest）从而实现对个性化处理效应的估计等，都应用了机器学习技术。基于机器学习的因果推断，杨君等（2022）研究了外资身份认定政策对企业创新的影响，胡遵国等（2022）分析了“倾斜性”政策对生产部门变迁与南北地区发展差异的影响，张涛和李均超（2023）探究了网络基础设施对城市包容性绿色增长的影响效应及内在机制。李超和求文星（2021）、李家宁等（2023）对机器学习因果推断方法研究的新进展进行了细致梳理。

三是加强定量研究与定性研究的结合。研究事物之间的因果关系，当前的主流方法是开展定量的实证研究。但从本质上说，事物之间因果关系的研究离不开研究者对事物之间内在联系的理论分析，离不开研究者的抽象思维能力。运用计量技术与方法开展实证研究，只是为了更好地验证变量间本身存在的因果性，验证理论分析的结论。实际上，开展定量研究的因果关系计量方法本身也是定性的理论研究的产物，而加强对社会现实因果关系的理论分析与创新研究，将有助于研究者更好地洞察和识别变量之间的因果关系。因此，实践中研究因果关系，要加强定量的实证研究与定性的理论研究的结合，既要重视计量技术和方法的改进，也要加强事物内在联系的理论探究，努力做到定量研究与定性研究的相互推动和相互成就。

来源：《社会研究方法评论》

编辑：冉芷箐

一审：石寒冰

二审：大兰

相关阅读

法卉｜自然实验法在政治学领域中的运用：背景、实例与前景

沈莎莉昝涛｜土耳其议会选举制度的历史演变、现实图景与影响

陈金燕 | 从文本到社会知识：基于文本的社会科学研究综述

声明：

本文仅为资源共享、学习参考之目的，并不代表本平台赞同其观点或对其真实性负责，本平台不承担文章侵权行为的连带责任。如需转载本文，请后台联系。

继续滑动看下一个

比较中的政治研究

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

梁军｜因果关系计量方法的内在逻辑与实践改进

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

生成图片，分享到微信朋友圈

梁军｜因果关系计量方法的内在逻辑与实践改进

您可能也对以下帖子感兴趣